Attention Is All You Need
https://gyazo.com/a1235ec68cdc78be3a1b20f4fb0473d2
Google翻訳.icon
支配的なシーケンス トランザクション モデルは、
エンコーダとデコーダの構成における複雑な再帰型または畳み込み型ニューラル ネットワークに基づいています。
最もパフォーマンスの高いモデルでは、
エンコーダとデコーダもアテンション メカニズムによって接続されています。
私たちは、再帰と畳み込みを完全に排除し、
アテンションメカニズムのみに基づいた新しいシンプルなネットワークアーキテクチャである
Transformer を提案します。
2 つの機械翻訳タスクでの実験により、
これらのモデルは優れた品質であると同時に、
より並列化可能で、トレーニングにかかる​​時間が大幅に短縮されることが示されています。
私たちのモデルは、
WMT 2014 の英語からドイツ語への翻訳タスクで 28.4 BLEU を達成し、
アンサンブルを含む既存の最高結果を 2 BLEU 以上上回りました。
WMT 2014 の英語からフランス語への翻訳タスクでは、
私たちのモデルは 8 つの GPU で 3.5 日間のトレーニング後に 41.8 という
新しい単一モデルの最先端の BLEU スコアを確立しました。
大規模なトレーニングデータと限られたトレーニングデータの両方を使用して
英語の構成構文解析に Transformer をうまく適用することで、
Transformer が他のタスクにも適切に一般化できることを示します。
翻訳タスク...Google翻訳も実はTransformerなんじゃね?bsahd.icon
https://arxiv.org/abs/1706.03762
Transformerを提案した論文
コレ以降、Attention is All You Need をモジッた論文が多数出現しているSummer498.icon